异常检测领域中的大多数建议仅集中在检测阶段,特别是在最近的深度学习方法上。在提供高度准确的预测的同时,这些模型通常缺乏透明度,充当“黑匣子”。这种批评已经越来越多,即解释在可接受性和可靠性方面被认为非常相关。在本文中,我们通过检查ADMNC(混合数值和分类空间的异常检测)模型来解决此问题,这是一种现有的非常准确的,尽管不透明的异常检测器能够使用数值和分类输入进行操作。这项工作介绍了扩展EADMNC(在混合数值和分类空间上可解释的异常检测),这为原始模型获得的预测提供了解释性。通过Apache Spark Framework,我们保留了原始方法的可伸缩性。 EADMNC利用了先前的ADMNC模型的配方,以提供事前和事后解释性,同时保持原始体系结构的准确性。我们提出了一个事前模型,该模型在全球范围内通过将输入数据分割为均质组,仅使用少数变量来解释输出。我们设计了基于回归树的图形表示,主管可以检查以了解正常数据和异常数据之间的差异。我们的事后解释由基于文本的模板方法组成,该方法在本地提供了支持每个检测的文本参数。我们报告了广泛的现实数据,特别是在网络入侵检测领域的实验结果。使用网络入侵域中的专家知识来评估解释的有用性。
translated by 谷歌翻译
存在许多背景,存在二元数据。社交网络是一个众所周知的例子。在这些情况下,成对的元素是链接的,建立一个反映交互的网络。解释为什么建立这些关系对于获得透明度至关重要,这是一个日益重要的概念。由于自然语言理解任务的传播,这些解释通常是使用文本提出的。我们的目的是代表和解释任何代理人建立的对(例如,推荐系统或付费促销机制),以便考虑到基于文本的个性化。我们已经专注于TripAdvisor平台,考虑到其他二元数据上下文的适用性。这些项目是用户和餐馆的子集以及这些用户发布的评论的互动。我们提出了PTER(个性化基于文本的评论)模型。我们可以从适合特定用户交互的特定餐厅的可用评论中预测。 PTER利用BERT(Transformers来自Transformers transformer-ododer模型的双向编码器表示)。我们按照基于功能的方法定制了一个深神网络,并介绍了LTR(学习排名)下游任务。根据额外的(解释排名)基准,我们与随机基线和其他最新模型进行了几次比较。我们的方法的表现优于其他协作过滤建议。
translated by 谷歌翻译
时间序列对齐方法要求高度表达,可区分和可逆的翘曲功能,这些功能保留时间拓扑,即差异性。可以通过普通微分方程(ODE)控制的速度场的集成来产生差异翘曲函数。基于梯度的优化框架包含差异转换需要根据模型参数(即灵敏度分析)计算微分方程解决方案的衍生物。不幸的是,深度学习框架通常缺乏自动差异兼容的灵敏度分析方法。和隐式功能,例如ODE的解决方案,都需要特殊护理。当前的解决方案吸引了伴随灵敏度方法,临时数值求解器或Resnet的Eulerian离散化。在这项工作中,我们在连续的分段(CPA)速度函数下呈现ODE溶液及其梯度的封闭式表达。我们提出了对CPU和GPU结果的高度优化实现。此外,我们在几个数据集上进行了广泛的实验,以验证模型对时间序列关节对齐的看不见数据的概括能力。结果在效率和准确性方面表现出显着改善。
translated by 谷歌翻译
精确的温度测量对于适当的监测和控制工业炉是必不可少的。然而,测量不确定性是这种关键参数的风险。当使用谱带辐射热度技术时,必须考虑某些乐器和环境误差,例如目标表面发射率的不确定性,反射周围物体的辐射或大气吸收和发射,以命名几个。可以使用测量模型来分离测量辐射的不期望的贡献,也称为纠错模型。本文介绍了石油化学炉场景中的温度测量期间预算重要误差和不确定性的方法。还通过基于深度学习的测量校正模型来介绍连续监控系统,以允许域专家实时分析炉的操作。为了验证所提出的系统的功能,提出了一种在石化工厂中的真实应用案例。所提出的解决方案展示了精确的工业炉监测的可行性,从而增加了运行安全性并提高了这种能量密集型系统的效率。
translated by 谷歌翻译
最近的证据表明,SARS-COV-2是2020年导致全球大流行病的病毒,主要经由室内环境中的空气机气溶胶传播。在评估和控制建筑物的室内空气质量(IAQ)时,这需要新颖的策略。 IAQ通常可以通过通风和/或政策来控制以调节人建筑物相互作用。然而,在建筑物中,占用者使用其他方式使用房间,可能并不明显哪种措施或对措施的组合导致成本和能源有效的解决方案,确保整个建筑物的良好IAQ。因此,在本文中,我们介绍了一种基于代理的模拟器,亚拟合,旨在帮助通过估计足够的房间尺寸,通风参数和测试政策的效果来帮助创造新的或适应现有建筑物,同时考虑到IAQ的结果复杂的人建筑物相互作用模式。最近公开的气溶胶模型适于计算每个房间中的时间依赖性二氧化碳($ CO_2 $)和病毒量子浓度,每天吸入$ CO_2 $和病毒量子,作为生理反应的衡量标准。由于其模块化架构,Archabm对气溶胶模型和建筑布局具有灵活性,这允许实现进一步的模型,任何数字和房间,代理和操作的行动,反映人建筑物交互模式。我们提供了一个基于我们研究中心采用的真正平面计划和工作时间表的用例。本研究表明,先进的仿真工具如何有助于改善建筑物的IAQ,从而确保健康的室内环境。
translated by 谷歌翻译
Even though machine learning has become the major scene in dialogue research community, the real breakthrough has been blocked by the scale of data available. To address this fundamental obstacle, we introduce the Multi-Domain Wizard-of-Oz dataset (MultiWOZ), a fully-labeled collection of human-human written conversations spanning over multiple domains and topics. At a size of 10k dialogues, it is at least one order of magnitude larger than all previous annotated task-oriented corpora. The contribution of this work apart from the open-sourced dataset labelled with dialogue belief states and dialogue actions is two-fold: firstly, a detailed description of the data collection procedure along with a summary of data structure and analysis is provided. The proposed data-collection pipeline is entirely based on crowd-sourcing without the need of hiring professional annotators; secondly, a set of benchmark results of belief tracking, dialogue act and response generation is reported, which shows the usability of the data and sets a baseline for future studies.
translated by 谷歌翻译
我们在这里采用贝叶斯非参数混合模型,以将多臂匪徒扩展到尤其是汤普森采样,以扩展到存在奖励模型不确定性的场景。在随机的多臂强盗中,播放臂的奖励是由未知分布产生的。奖励不确定性,即缺乏有关奖励生成分布的知识,引起了探索 - 开发权的权衡:强盗代理需要同时了解奖励分布的属性,并顺序决定下一步要采取哪种操作。在这项工作中,我们通过采用贝叶斯非参数高斯混合模型来进行奖励模型不确定性,将汤普森的抽样扩展到场景中,以进行灵活的奖励密度估计。提出的贝叶斯非参数混合物模型汤普森采样依次学习了奖励模型,该模型最能近似于真实但未知的每臂奖励分布,从而实现了成功的遗憾表现。我们基于基于后验分析的新颖的分析得出的,这是一种针对该方法的渐近遗憾。此外,我们从经验上评估了其在多样化和以前难以捉摸的匪徒环境中的性能,例如,在指数级的家族中,奖励不受异常值和不同的每臂奖励分布。我们表明,拟议的贝叶斯非参数汤普森取样优于表现,无论是平均累积的遗憾和遗憾的波动,最先进的替代方案。在存在强盗奖励模型不确定性的情况下,提出的方法很有价值,因为它避免了严格的逐案模型设计选择,但提供了重要的遗憾。
translated by 谷歌翻译
Semantic Textual Similarity (STS) measures the meaning similarity of sentences. Applications include machine translation (MT), summarization, generation, question answering (QA), short answer grading, semantic search, dialog and conversational systems. The STS shared task is a venue for assessing the current state-of-the-art. The 2017 task focuses on multilingual and cross-lingual pairs with one sub-track exploring MT quality estimation (MTQE) data. The task obtained strong participation from 31 teams, with 17 participating in all language tracks. We summarize performance and review a selection of well performing methods. Analysis highlights common errors, providing insight into the limitations of existing models. To support ongoing work on semantic representations, the STS Benchmark is introduced as a new shared training and evaluation set carefully selected from the corpus of English STS shared task data (2012-2017). 7 We use 50-dimensional GloVe word embeddings (Pennington et al., 2014) trained on a combination of Gigaword 5 (Parker et al., 2011) and English Wikipedia available at http://nlp.stanford.edu/projects/glove/.8 https://www.mturk.com/ 9 A designation that statistically identifies workers who perform high quality work across a diverse set of tasks.10 Spanish data from 2015 and 2014 uses a 5 point scale that collapses STS labels 4 and 3, removing the distinction between unimportant and important details.
translated by 谷歌翻译